Modelo de efectos mixtos, machine learning y deep learning
Resumen de trabajos de interés
Un pequeño repaso
La inteligencia artificial es el nombre de todo un campo de conocimiento, similar a la biologÃa o la quÃmica. El machine learning es una rama de la inteligencia artificial que viene ganando popularidad.
Las redes neuronales son uno de los tipos de machine learning. Uno popular, pero hay otros también muy buenos. El deep learning es un método moderno de construcción, capacitación y uso de redes neuronales. Básicamente, es una nueva arquitectura.
Un pequeño repaso
Nunca hay una única forma de resolver un problema en el mundo del machine learning. Siempre hay varios algoritmos que se ajustan, y se debe elegir el mejor.
Las técnicas y métodos de machine learning pueden funcionar con una gran cantidad de datos complejos, de alta dimensión y enormes, y pueden usarse para desarrollar modelos de regresión y clasificación.
Un pequeño repaso
Un pequeño repaso
En el aprendizaje supervisado, el modelo simplemente aprende a mapear las caracterÃsticas de entrada dadas o la variable predictora \(x\) y la variable de salida o respuesta \(y\) en los conjuntos de datos de entrenamiento. La muestra de entrenamiento actúa como supervisor en el proceso de aprendizaje.
En el aprendizaje supervisado, cuando la variable de salida es un valor categórico o discreto, entonces es clasificación, pero cuando la variable de salida es un valor continuo, entonces es una regresión. Aquà un video sobre esto.
Un pequeño repaso
La fórmula simple para explicar el problema de regresión (en el estudio a desarrollar se esta interesado en el problema de regresión) viene dada por la ecuación:
\[y = f(x) + b\]
El propósito de la regresión es estimar el valor de la variable respuesta \(y\) utilizando la función \(f(x)\) a partir de conjuntos de datos de entrada dados y su término de errores.
En la regresión, el modelo aprende de los datos en diversas técnicas para minimizar el sesgo y la varianza hasta que en algún momento la predicción del modelo haya logrado el mejor ajuste.
Un pequeño repaso
Se pueden usar muchos algoritmos de regresión de machine learning para predecir la salida continua:
1. Random forest (bosque aleatorio)
Para entender el bosque aleatorio se necesita primero introducir el concepto de árboles de decisión.
Un pequeño repaso
Un árbol de decisión (como se pudo observar en la imagen anterior) es una estructura similar a un diagrama de flujo, en la que cada nodo interno representa una prueba sobre un atributo del conjunto de datos, cada rama representa el resultado de la prueba y cada hoja representa una etiqueta de clase.
Asà que el algoritmo hará las pruebas sobre los datos, descubriendo cuáles son las caracterÃsticas más relevantes del conjunto de datos para predecir un determinado resultado, y separando en consecuencia el conjunto de datos.
Un pequeño repaso
El bosque aleatorio se compone de árboles de decisión de distinta profundidad y hojas generadas dada la cantidad de caracterÃsticas en los datos. RF utiliza aleatoriamente un subconjunto de caracterÃsticas en lugar de todas ellas.
El número de ramas en cada árbol, puede medirse comenzando desde la parte superior o la raÃz hasta el cÃrculo rojo a través de varios niveles de nodos divididos (L1, L2, …, Ln).
Un pequeño repaso
Cuantas más divisiones tenga el árbol, más información de profundidad se puede capturar de los datos, lo que reduce el sesgo. Cada nodo de decisión tiene varios números de muestras, pero al menos tiene una muestra. Como es un árbol en la naturaleza, también tiene una hoja.
Similar al nodo de decisión, la hoja dividida requiere mÃnimo una muestra. A diferencia del nodo de decisión, el nodo de hoja no tiene hijos.
Un pequeño repaso
En general, el bosque aleatorio es un técnica de conjunto capaz de realizar tareas de regresión con el uso de múltiples árboles de decisión y una técnica llamada bootstrap aggregation, comúnmente conocida como bagging.
Esta técnica, implica entrenar cada árbol de decisión en una muestra de datos diferentes donde el muestreo se realiza con reemplazo:
Un pequeño repaso
El estimador de regresión de bosque aleatorio es igual a:
\[\hat{f^{I}}(x) = \frac{\sum^{I}_{i = 1}t^{*}_{i}(x)}{I}\]
donde \(\hat{f^{I}}(x)\) es un estimador de bosque aleatorio, bootstrap individual de la muestra \(i\), \(I\) es el número total de árboles que representan el número de estimadores, y \(t^{*}_{i}(x)\) es la función del árbol de decisión individual que es igual a \(t^{*}_{i}(x) = t(X; Z^{*}_{i1},... Z^{*}_{in})\)
donde \(Z^{*}_{in} (n = 1, ..., N)\) es la n-ésima muestra de entrenamiento del conjuntos de datos con \(x\) caracterÃsticas de entrada y respuesta \(y\).
Un pequeño repaso
El valor óptimo del parámetro de bosque aleatorio, asà como el número de ramas, muestras divididas y el nodo de hoja de la muestra, se requiere para averiguar mediante el ajuste de hiperparámetros. Sin embargo, los creadores de este método recomiendan usar \(nfeatures = \frac{1}{3}m\) donde \(m\) es el número de caracterÃsticas de los datos y el nodo dividido mÃnimo es cinco.
Un pequeño repaso
2. Support vector regression (regresión de vector de soporte)
Un pequeño repaso
La máquina de vector de soporte (abreviada como SVM) son algoritmos supervisados de machine learning que encuentran un lÃmite o lÃnea que describe efectivamente los datos de entrenamiento, ya sea dando la mayor separación posible entre el lÃmite y los puntos de datos de entrenamiento en cada lado (clasificación) o encontrando la lÃnea lo más cerca posible del mayor número de puntos de entrenamiento (regresión).
Un pequeño repaso
Una máquina de vector de soporte piensa en observaciones individuales (filas) en un conjunto de datos como puntos trazados en un espacio n-dimensional, donde n es el número de variables predictoras que se está utilizando para describir la variable respuesta.
Por ejemplo, si se tiene dos variables, A y B, los puntos se trazarán en un espacio bidimensional en función de los valores de cada variable predictiva:
Un pequeño repaso
Después de determinar dónde existen las observaciones en el espacio n-dimensional, un SVM identifica un hiperplano llamado lÃmite de decisión que separa los datos. Por definición, un hiperplano siempre tendrá una dimensión menos que el espacio de datos en el que está construido.
Por ejemplo, si se está trabajando en un espacio tridimensional, el hiperplano tendrá dos dimensiones, y si el espacio es bidimensional, el hiperplano será una lÃnea.
Un pequeño repaso
Un SVM intenta identificar un lÃmite de decisión óptimo que separe claramente las diferentes clasificaciones de la variable respuesta. El lÃmite de decisión de un SVM está determinado por vectores de soporte. Este admite puntos de vectores que están más cerca del borde de cada clase, los cuales son los puntos más difÃciles de clasificar correctamente.
Un pequeño repaso
La distancia entre el hiperplano y los vectores de soporte se llaman márgenes.
El objetivo de un SVM en regresión consiste en intentar ajustar todos los puntos dentro del margen del hiperplano y minimizar el número de puntos que quedan fuera del margen.
Un pequeño repaso
Cuando el conjunto de datos no se puede separar por una lÃnea recta, se suele emplear una función de kernel.
Esta función se usa para transformar los datos en un espacio de dimensión superior para separarlos linealmente. Convierte un problema no separable en uno separable al aumentar el número de dimensiones en el espacio del problema y mapear los puntos de datos a un nuevo espacio.
El hiperplano que separa efectivamente los puntos en un espacio problemático de mayor dimensión se asigna nuevamente al espacio problema original, lo que da como resultado una solución no lineal: →
Un pequeño repaso
Un pequeño repaso
Matemáticamente, la SVR no lineal se formula dada por:
Un pequeño repaso
El modelo mixto es un modelo estadÃstico que comprende efectos fijos y efectos aleatorios.
Los modelos de efectos mixtos son adecuados para conjuntos de datos que tienen estructura de clúster. La estructura del clúster puede ser longitudinal (imagen a la izquierda) o jerárquica (imagen a la derecha).
Un pequeño repaso
Se ha propuesto un enfoque para manejar el clúster en los datos, el machine learning de efectos mixtos.
Un pequeño repaso
Bosque aleatorio de efectos mixtos
Un pequeño repaso
Regresión de vector de soporte de efectos mixtos
Problema: Los autores mencionan que los modelos comunmente usados (en este caso, con datos longitudinales) trabajan bajo supuestos hechos en la distribución de los datos y del modelo… los métodos tradicionales tienen una fuerte dependencia de los supuestos.
En comparación con los métodos tradicionales, los métodos de machine learning no requieren suposiciones sobre la distribución de los datos, y utilizan la validación cruzada para juzgar la calidad del modelo en su lugar.